ChatGPT 元年:野心,战略,以及绕不开的困难|TECH TUESDAY
一场开发者活动,人工智能行业过去一年的总结。
文丨贺乾明 邱豪
编辑丨黄俊杰
2009 年 4 月,硅谷创业教父保罗·格雷厄姆(Paul Graham)撰文记录了五位对自己影响最大的创业者。他将时年 24 岁的山姆·阿尔特曼(Sam Altman)与苹果、Google 的创始人们并列。“辅导创业公司的时候,提到设计问题,我会问 ‘史蒂夫(乔布斯)会怎么做?’ 但关于战略或者野心,我会问 ‘山姆会怎么做?’”
阿尔特曼当时只创办过一家公司——Loopt,一个没能建立网络效应的社交网络公司。之后十几年,他在硅谷创业圈的人气随着格雷厄姆的孵化器 YC 一同壮大。但直到 OpenAI,更具体来说,从去年 11 月 OpenAI 发布 ChatGPT 至今的这一年,全世界才第一次见证了他的野心以及与之匹配的战略能力。
11 月 6 日,OpenAI 举办了成立以来的第一场开发者活动。在类似早年苹果发布会的小会场里,阿尔特曼没有提及太多新技术,更像是过去一年的发展总结,全面展示了 OpenAI 大模型上的技术实力。
过去一年,ChatGPT 从一个只能处理文字信息的网页端应用,变成了一个可以同时处理文字、语音、图像信息的 App,吸引上亿人每周使用。
OpenAI 从一个研究机构变成了估值 900 亿美元的超级创业公司,聚拢了 200 万开发者用它的技术开发各种应用。
世界也因为 ChatGPT 掀起的浪潮发生改变。根据柯林斯词典统计,人们在 2023 年提及 “AI” 的次数,是去年的四倍。红杉资本称,他们的收件箱被 “AI Salesforce”“AI Adobe”“AI Instagram” 等各种创业想法填满,整个科技行业陷入到了人才争夺和采购 GPU 狂潮中。
在中国,几乎每个大点的互联网或科技公司都要研发大模型。已经退休的互联网公司高管、卖掉公司已经开启新创业的创业者,以及有技术积累的年轻学者看到 ChatGPT 后迅速采取行动,要拥抱大模型时代。过去一年,中国诞生了多家独角兽公司,以及近百个大模型。
经历过互联网公司的大膨胀和反垄断之后,全球政府对这次 AI 浪潮都保持警觉。过去一年,欧盟、中国和美国都以前所未有的速度推动针对人工智能的监管。
整个行业和 OpenAI 的距离,在快速缩短也在拉大
去年 ChatGPT 刚发布时,它只是一个处理信息比较有限的聊天机器人,输入文字或代码组成的句子,反馈文字和代码。凭借着它背后吞掉海量数据、靠着大学生们反复调教的大模型,ChatGPT 超越了以往所有的聊天机器人。用户抛来的各种各样的问题,它大多能给出媲美人类的回复。
尽管有时候会胡说八道(行业内一般称之为 “幻觉”),但凭借着一次次令人惊讶的回复,让人们见识到了人工智能向万能的通用助手靠近是什么情况。
今年 9 月,ChatGPT 根据病情描述和检查报告结果,帮助一位母亲给她的孩子找到了病因——新生儿发病率最高只有 0.025% 的脊髓栓系综合征(TCS),再次刷新了人们对 ChatGPT 能力的认知。在 ChatGPT 给出结果前,这个母亲已经带着孩子求医三年,找了 17 个医生,都没有诊断出真正的病因。
一年时间,ChatGPT 背后的大语言模型从 GPT 3.5 进化到 GPT-4。它能处理的不再只是代码、文字,还能处理各种文件,自动调用 Python 代码把繁杂的数据变成图表;处理一本长达 300 页的小说,并用其中的信息回答问题。而且出现幻觉的情况减少了。
9 月份,OpenAI 向付费用户开放 GPT-4 Vision(GPT-4V),能把图像当做一种信息处理,理解图片中的内容,并对提问给出回复。
“大模型时代的黎明。” 微软的研究人员今年 10 月在一篇长达 166 页的报告中提出,“GPT-4V 在处理任意交错的多模态(文字、图像)信息方面具有前所未有的能力,是当今最强大的多模态通用人工智能系统。”
自动驾驶公司图森中国 CTO 王乃岩测试了 GPT-4V 在自动驾驶场景中的应用。他给了 GPT-4V 7 张真实驾驶环境中的图片,让它给出驾驶建议,多数情况得到了安全的回复。“适当的提示词应当可以完全发挥出 GPT-4V 的实力。” 他认为,尽管存在 “幻觉” 问题,“合理使用这样的大模型可以大大加快 L4 乃至 L5 自动驾驶的发展。”
OpenAI 成立之初是一个开放的研究机构,它在 2020 年发布 GPT-3 时详细公开了技术细节。ChatGPT 点燃人工智能市场后,GPT-3 降低了整个行业追赶的难度。
与 GPT-3.5 同等水平的 Meta Llama 2 在今年 7 月发布。Meta 将其开源,并允许商用。整个行业一夜之间来到了一个新的起点。今年 10 月,中国一批研发大模型的公司,比如科大讯飞、阿里巴巴、腾讯都在不同场合宣布自研的大模型(中文)能力达到了 GPT-3.5 的水平。
还有一些公司宣称在一些能力上追上了 GPT-4,比如 Google 的 PaLM 2、OpenAI 最大竞争对手 Anthropic 的 Claude 2,以及百度的文心大模型 4.0。
在一些特定的功能上,追赶者甚至比 OpenAI 做的更突出。今年 5 月,Anthropic 发布了大模型 Claude-100k,把大模型处理文本的长度扩充到了 100k,在当时 GPT-4 最多处理 32k 文本的情况下,开辟了大模型处理更长文本的研究方向。处理更长的文本可以把大模型用到更多的场景中,比如金融、法律等。
中国大模型创业公司围绕文本长度竞赛。今年 10 月,清华大学助理教授杨植麟创办的月之暗面宣布其大模型可以处理 20 万字。紧跟着王小川创办的百川智能宣称能处理 35 万字(192k)。本周,李开复牵头创办的零一万物宣城可以处理 40 万字(200k)。直到今天 OpenAI 发布 GPT-4 Turbo,ChatGPT 处理的文本长度才到 128k。
但目前没有哪个大模型在理解图片、视频时,能与 GPT-4V 相比。追赶者面前也没有明确的实现路径,因为 ChatGPT 成功后,OpenAI 开放的信息越来越少。GPT-4 不但不开源,甚至连数据来源、参数规模都不再公开。
“我们知道大的方向是做多模态大模型,但具体要怎么做?用什么样的算法做?还不算特别清楚。” 一位中国头部互联网公司的大模型开发者说。
今年 5 月,Google 宣布已经开始研发多模态大模型 Gemini。一些大模型从业者在接受媒体采访时提出,YouTube 拥有互联网上最大、最丰富的图像、音频和字幕(文本)数据,是 Google 研发多模态大模型的 “王牌”。不过 Google 到现在也没有发布 Gemini 。
而且 OpenAI 的实际进展可能比已经公开的更显著。根据 OpenAI 公布的技术报告,GPT-4、包括 9 月发布的 GPT-4V,在 2022 年就完成训练。山姆·阿尔特曼在 10 月初的一场活动上说,OpenAI 已经启动 GPT-5、GPT-6 的训练,会继续沿着多模态方向更进一步,不只是多模态输入,还会做多模态输出,提升模型的可靠性,开发个性化的大模型。
ChatGPT 正在变成超级应用,但大模型的成本问题还没解决
OpenAI 成立八年,至少试过 6 种不同的技术产品,从机器手到 AI 游戏机器人,以寻找 AI 普及的突破口。在 ChatGPT 火了之后,成为了 OpenAI 大多数技术产品的载体。过去一年,OpenAI 围绕着它全力投入,不断把过去多年研发的技术投入其中。
刚发布时,ChatGPT 不过是一个临时的产品,只能通过网页使用。现在 OpenAI 开发了一个界面直观、交互简单的手机应用,一步步增加功能,把它变成一个超级应用:
5 月,上线 iOS 应用;增加联网等插件功能,以增强 ChatGPT 的能力。比如用搜索引擎等工具,弥补 ChatGPT 模型学习的知识截至 2021 年 9 月的短板。
7 月,上线 “代码解释器” 功能,付费用户可以调用它分析各种繁杂的数据,并生成图片等。
8 月,上线 “提示词示例” 功能,支持用户上传多个文件发起提问。
9 月,增加文生图功能 DALL-E3,用户输入文字就可以自动生成符合要求的图片;增加听、说的功能,用户可以直接用语音与 ChatGPT 交流;增加图片输入功能,ChatGPT 可以理解用户输入的图片,并回答问题;付费用户可以免费邀请新用户体验 GPT-4。
10 月,支持用户上传 PDF 等各种格式的文件,在一个对话中可以自动切换不同插件解决问题。
11 月,分析用户提出的问题,自动调用最合适的插件回答;学习的知识更新到今年 4 月。
在这个思路下,一众给 ChatGPT 做外壳,改善用户体验的产品已无活路。阿尔特曼在 10 月初的一场活动中说,“做一个 UI 更好的 ChatGPT,并不是一个好主意。”
一年时间,ChatGPT 从一个网页变成了每周有 1 亿人使用的产品。用户数量超过 ChatGPT 的互联网生产力工具寥寥无几。第一年能到如此规模的互联网服务,在这之前也只有 TikTok。
阿尔特曼将自己在 YC 时期教创业者的增长方法论用于 ChatGPT。他快速迭代产品,要让 ChatGPT 留住最广泛的用户。互联网创业的经验是,只有用一个入口抓住最多用户才有机会建立平台经济,获得无限收入。ChatGPT 就是目前最大的 AI 入口。
构建入口的过程里,OpenAI 与最大投资方微软直接冲突。
今年 2 月,微软上线 New Bing,让用户在使用 Bing 搜索时调用 ChatGPT。但三个月后,OpenAI 上线插件,让用户在 ChatGPT 提问时能调用搜索引擎。都是 GPT 大模型与 Bing 搜索的组合,但入口不同决定了用户归属哪家公司。ChatGPT 手机应用吸引到大批用户的同时,Bing 搜索在全球搜索引擎市场的份额跌回了 2018 年水平。
今天的开发者活动中,OpenAI 推出了 GPTs 功能。根据阿尔特曼的演示,用户只需要输入要求、上传特定的数据文件等,就可以借助 ChatGPT 做出来一个定制版本的 ChatGPT,全程不用任何代码。
OpenAI 还计划上线一个 GPT Store,让用户上传 / 下载各种定制的定制版 GPT,就像苹果为手机应用开发了 App Store 那样。一个 AI 时代的平台产品野心完全公开。
除了 ChatGPT 快速壮大,还没有哪家公司或创业者靠着大模型挑战一个行业既定的商业规则。原本已经有用户或建立付费商业模式的大公司,比如微软 Office、Salesforce、Adobe 等,都在将大模型融入到成熟的产品中,让用户每个月多交 10-20 美元。
还有一些公司寄希望于用大模型给萎靡的创新业务找到新故事。最典型的例子就是 Meta,今年 9 月发布了一款搭载人工智能助手的硬件产品 Meta Smart Glasses。
“去年人工智能突破前,我认为只有引入更强的屏幕、全息影像这些技术,智能眼镜才会无处不在。”Meta CEO 马克·扎克伯格(Mark Zuckerberg)说。“现在,我认为人工智能技术对于智能眼镜的普及和其他 AR 技术一样重要。”
本身有云计算业务的大公司进入大模型市场,主要还是卖资源。比如微软、Google、亚马逊、阿里巴巴、腾讯等,它们都会投资大模型公司,将其作为平台上的大模型 API 对外出售。它们也会训练一个大模型,但主要作为获客手段,吸引客户利用它们的云计算资源训练、部署大模型。
至少目前为止,大公司对 AI 大模型的投资额远超过风险资本。
在 OpenAI 与微软之外,Anthropic 先后拿了 Google、亚马逊的投资;李开复的创业公司拿了阿里云的投资;智谱拿了腾讯、阿里的投资等。
过去一年,一批创业公司开始探索大模型的具体应用。比如用大模型做各种虚拟角色的 Character.AI、做个人超级助理的 Inflection AI、虚拟英语教师 Speak、用大模型做营销方案的 Jasper、人工智能法律助手 Harvey。
不管是大公司做产品,还是小公司创业做 AI 应用,当前面临的最大问题都是大模型使用成本太高。微软的基于 GPT-4 开发的编程助手 GitHub Copilot 吸引了超过 100 万付费用户,但使用算力太多,最后导致平均每个用户亏损 20 美元。
大模型与其他软件应用不同,不仅训练起来费钱,运行起来更烧钱。大模型想要处理用户输入问题,基本上每个字都要跑一遍大模型。参数上千亿的大模型,每次跑一遍都要调用多个 A100 GPU,每个价值 1 万美元。比如大模型想要处理 100 个字的问题,就要运行 100 遍大模型。给出回复时,类似的情况还要再来一遍,成本更高。
为了吸引开发者进入自己的平台,OpenAI 今天大幅降低开发者使用 GPT-3.5 和 GPT-4 的成本。
GPT-3.5 是当前最便宜的大模型,用它处理一个 500 字的问题,并给出 500 字的回复,价格大概是 0.003 美元,约等于人民币 0.022 元——一个看上去微不足道的数字,但如果每天处理 1000 万条,这个数字就会抬升到 22 万元,相当于一年 8000 多万。如果换成 GPT-4,一年成本就会超过 10 亿元。
行业技术水平快速提升后,一些原本计划与 OpenAI 合作的公司转向开源。Salesforce 曾计划以 GPT-4 改造自己庞大的企业服务业务,现在已经开始自己研发大模型或使用开源大模型替代 GPT-4,以降低成本。它的一位高级副总裁说,“随着人工智能产品达到更大的规模,我们开始关注成本效益,成本只会变得更加重要。”
中国想用大模型改造业务的公司类似,他们虽然研发出了千亿参数的大模型,但在具体应用中,大多使用参数只有数十亿参数或者百亿参数的模型,也因此影响了最终效果。
OpenAI 等公司也在持续调整大模型算法降低大模型的运行成本,但最终绕不开的是英伟达的 “税”。根据咨询机构 The Information Network 总裁罗伯特·卡斯特拉诺(Robert Castellano)等人的报告,英伟达以不到 4000 美元的成本向台积电、SK 海力士采购关键元件、造出 H100 芯片,然后以 40000 美元的单价售出,毛利率超过 90%。
现在整个大模型行业大致找到了两个解决办法。一种是科技巨头自己下场研发芯片,比如 Google、亚马逊、微软,甚至 OpenAI 都在考虑针对 AI 运算自研芯片。
另一种则是让消费者买更适合大模型计算的手机和电脑,分担算力成本。高通、苹果近期发布新款笔记本电脑芯片时,都会强调可以运行百亿参数的大模型,并创造了一个新的名词:AI PC。
过去一年,从 AI 热里收益最多的不是 OpenAI
根据麦肯锡今年 4 月发起的调研报告,40% 的公司因为生成式人工智能出现,决定加大对人工智能投资。高盛在 8 月预测,全球的企业今年朝人工智能领域投资 1102 亿美元,比去年增长 20%。
据媒体报道,靠着 ChatGPT,OpenAI 的年收入达到了 13 亿美元,是它去年收入的 43 倍,超过了商汤。OpenAI 第一次证明,不用做短视频鼓励娱乐至死,也不用像商汤那样做安防 “集成商”,一家公司单凭先进的人工智能技术也可以获得可观收入。
同时,OpenAI 的估值也从去年 10 月的不到 200 亿美元增长到了近 900 亿美元,成为全球第三大独角兽,仅次于字节跳动和造火箭的 SpaceX。
不过 OpenAI 不是最大的受益者。资本市场现在更相信科技巨头在 AI 里的潜力。
它们掌握着人工智能领域必不可少的数据、算力、使用场景,以及客户群体。相比着 OpenAI 领先的大模型技术,这些基础设施一样的资源,要比技术本身更稀缺。
“护城河在于客户,而不是数据。” 红杉资本在今年 9 月发布的生成式人工智能报告中写道,他们之前认为,最好的生成式人工智能公司可以凭借数据建立领先优势,但后来发现并不稳固:“生成式人工智能应用产生的数据,并没有创造出不可逾越的护城河,而工作流程、用户网络,正在创造更持久的竞争优势。”
自去年 ChatGPT 发布到现在,标普 500 只涨了 10%,微软的股价增长近 50%,市值增加了 7400 多亿美元。它给 OpenAI 投资 100 亿美元,已经约等于不用花钱。
一开始被认为可能遭受巨大冲击的 Google,市值增加了 3200 多亿美元;靠着开源大模型追上来的 Meta,市值增加了近 5000 亿美元。
当然也少不了英伟达,凭借着对 GPU 垄断的市场地位,过去一年其市值增加了 7100 多亿美元,成为了芯片行业第一家市值万亿美元的公司。一年前,它还在为显卡滞销发愁,不得不降价促销。
中国大模型行业声量最大的百度、科大讯飞,一年来市值分别增加了 27 亿美元和 45 亿美元。而作为上一代人工智能公司的代表,商汤虽然也发布了大模型,但股价这一年下跌超 16%。
在人工智能投资方面,中国与美国是全球投入最多的两个国家。根据斯坦福大学统计的数据,在 2019 年之前,中美之间人工智能投资差别不算太大,而到了 2020 年、2021 年,美国对人工智能领域投资已经从原本超中国 70%,变成了是中国的 2.7 倍、3.1 倍。
这两年正值 OpenAI 发布 GPT-3,证明了更大的模型可以有更好效果,并坚定追加投入,去研发 ChatGPT。不过在 2022 年,全球对人工智能的信心都减少了,整体投资额相比上一年明显减少。
过去一年,随着 ChatGPT 发布,全球加大人工智能领域投入,中美在人工智能领域投资的差距再次缩小,但能多大程度上弥合技术差距,还是一个未知数。
对大模型监管的不同态度,对话语权的争夺
2021 年,欧盟已经提出监管人工智能的框架,但没有推进下去。毕竟那时的人工智能还不算过时的浪潮。
ChatGPT 发布后,全世界的人工智能立法都加速了。欧盟的主要立法机构欧洲议会在 6 月投票通过了提出两年的《人工智能法案》(A.I. Act)草案,严格限定了人工智能技术的使用场景和范围,要求 ChatGPT 等生成式人工智能,需要披露哪些内容是人工智能生成的,需要设计模型防止生成有害内容,需要披露训练模型时用了哪些有版权的数据等。
中国在今年 4 月发布《生成式人工智能服务管理办法(征求意见稿)》,8 月正式实施,要求每一个在中国境内提供服务的大模型,都要报告训练数据,经过有关部门备案和安全评估后,才能公开提供服务。目前有 10 多家大模型公司通过备案。
上个月,美国总统拜登(Joe Biden)签署通过关于人工智能的监管法令。根据白宫发布的情况说明,美国把监管重心放在了下一代大模型上,要求大型 AI 公司开发对 “国家安全、国家经济安全等构成严重风险” 的大模型时要通知政府。
颠覆性的新技术与监管政策常常对立,逐渐在冲突中找到平衡。互联网诞生之初,加密传输数据曾被认为会保护恐怖主义,连浏览器在不同国家都要用不同级别的加密技术。网约车在全球各地都经历过违规时期,加密货币至今还在灰色地带。
人工智能是少数主动拥抱监管的新兴行业。ChatGPT 发布半年后,阿尔特曼就坐到了美国参议院听证会的证人席上,呼吁议员们监管人工智能:“如果这项技术出了问题,后果可能会非常严重。” 现场的一名议员听到阿尔特曼的发言后说:“很少有公司在国会面前说,请监管我们。”
5 月底,非营利组织 Center for AI Safety 发布了一篇公开信,呼吁政府机构应该把 “减轻人工智能带来的灭绝风险” 当作优先事项,像对待流行病和核战争那样慎重。OpenAI 的高管们、Google DeepMind 的负责人戴米斯·哈萨比斯(Demis Hassabis)、Anthropic 的 CEO 达里奥·阿莫迪(Dario Amodei)都在名单上。他们罗列了一些大模型可能用于作恶的证据,比如助长虚假信息传播等、可以帮助制造毒药。
反对 AI 强监管的声音同样强大,最主要的代表是 Meta 人工智能项目负责人杨立昆(Yann LeCun)、风投 a16z 合伙人马克·安德森(Marc Andreessen)、斯坦福大学计算机系教授吴恩达等人。吴恩达近期与杨立昆等人共同签署了一封呼吁人工智能开放的公开信。他们和开源运动的积极支持者们都相信,当技术向所有人彻底开放,就能化解危险。
安德森在一篇文章中称,寻求严格监管的 CEO 与从禁酒令中获益的私酒贩子没什么区别,“形成监管壁垒,建立政府支持的人工智能供应商联盟,他们会免受创业公司和开源竞争的影响,就能赚更多钱”。
严格的监管后,新进入者、小公司往往难以负担合规成本。银行、能源、烟草等行业转向强监管后都没什么新公司。原本领先的公司因此受益。
在今年 5 月的美国国会听证会上,一位参议员质疑:“少数几家公司控制、影响着所有人的生活”,会不会有危险?
阿尔特曼承认,最终只有少数公司能制造强大的模型,这有利有弊,因为 “你们需要盯着的公司也少了”。
题图来源:视觉中国
1957 年,人造物体第一次进入宇宙,绕着地球飞了三个星期。人类抬头就能在夜幕里看到一颗小小的闪光划过天空,与神话里的星宿并行。
这样的壮举跨越种族与意识形态,在全球各地激起了喜悦之情。但并不是我们可能猜想的那种为人类壮举所感动的胜利喜悦。根据政治哲学家汉娜·阿伦特(Hannah Arendt)当年的观察,人们的情绪更接近于一种等待多时的宽慰——科学终于追上了预期,“人类终于在摆脱地球这个囚笼的道路上迈出了第一步”。
人们总是根据技术探索,快速调整着自己对世界的预期。当科幻作家的一桩畅想变成现实,往往是技术终于追上了人们的预期,或者用阿伦特的话说,“科技实现并肯定了人们的梦想既不疯狂也不虚无。”
今天这样的时候,多一点梦想是更好的。
这也是《晚点 LatePost》启动 TECH TUESDAY 这个栏目的预期。我们希望在《晚点》日常关注的商业世界外,定期报道新的科学研究与技术进展。
这些可能关于一项前沿研究的进展、可能是对一个技术应用的观察,也可能是对一些杰出技术、乃至一个时代的致敬。
这个栏目将从科学与技术的角度出发,记录这个世界的多样变化。在这个旅途中,希望读者能和我们一起,对这个世界增加一分理解。
· FIN ·